One of the major challenges in Deep Reinforcement Learning for control is the need for extensive training to learn the policy. Motivated by this, we present the design of the Control-Tutored Deep Q-Networks (CT-DQN) algorithm, a Deep Reinforcement Learning algorithm that leverages a control tutor, i.e., an exogenous control law, to reduce learning time. The tutor can be designed using an approximate model of the system, without any assumption about the knowledge of the system's dynamics. There is no expectation that it will be able to achieve the control objective if used stand-alone. During learning, the tutor occasionally suggests an action, thus partially guiding exploration. We validate our approach on three scenarios from OpenAI Gym: the inverted pendulum, lunar lander, and car racing. We demonstrate that CT-DQN is able to achieve better or equivalent data efficiency with respect to the classic function approximation solutions.
translated by 谷歌翻译
最小化能量的动力系统在几何和物理学中无处不在。我们为GNN提出了一个梯度流框架,其中方程遵循可学习能量的最陡峭下降的方向。这种方法允许从多粒子的角度来解释GNN的演变,以通过对称“通道混合”矩阵的正和负特征值在特征空间中学习吸引力和排斥力。我们对溶液进行光谱分析,并得出结论,梯度流量图卷积模型可以诱导以图高频为主导的动力学,这对于异性数据集是理想的。我们还描述了对常见GNN体系结构的结构约束,从而将其解释为梯度流。我们进行了彻底的消融研究,以证实我们的理论分析,并在现实世界同质和异性数据集上显示了简单和轻量级模型的竞争性能。
translated by 谷歌翻译
大多数图形神经网络(GNNS)使用传递范例的消息,其中节点特征在输入图上传播。最近的作品指出,从远处节点流动的信息失真,作为限制依赖于长途交互的任务的消息的效率。这种现象称为“过度挤压”,已经启动到图形瓶颈,其中$ k $ -hop邻居的数量以$ k $迅速增长。我们在GNNS中提供了精确描述了GNNS中的过度挤压现象,并分析了它如何从图中的瓶颈引发。为此目的,我们介绍了一种新的基于边缘的组合曲率,并证明了负曲面负责过度挤压问题。我们还提出并通过实验测试了一种基于曲率的曲线图重新挖掘方法,以减轻过度挤压。
translated by 谷歌翻译
We advance a novel computational model of multi-agent, cooperative joint actions that is grounded in the cognitive framework of active inference. The model assumes that to solve a joint task, such as pressing together a red or blue button, two (or more) agents engage in a process of interactive inference. Each agent maintains probabilistic beliefs about the goal of the joint task (e.g., should we press the red or blue button?) and updates them by observing the other agent's movements, while in turn selecting movements that make his own intentions legible and easy to infer by the other agent (i.e., sensorimotor communication). Over time, the interactive inference aligns both the beliefs and the behavioral strategies of the agents, hence ensuring the success of the joint action. We exemplify the functioning of the model in two simulations. The first simulation illustrates a ''leaderless'' joint action. It shows that when two agents lack a strong preference about their joint task goal, they jointly infer it by observing each other's movements. In turn, this helps the interactive alignment of their beliefs and behavioral strategies. The second simulation illustrates a "leader-follower" joint action. It shows that when one agent ("leader") knows the true joint goal, it uses sensorimotor communication to help the other agent ("follower") infer it, even if doing this requires selecting a more costly individual plan. These simulations illustrate that interactive inference supports successful multi-agent joint actions and reproduces key cognitive and behavioral dynamics of "leaderless" and "leader-follower" joint actions observed in human-human experiments. In sum, interactive inference provides a cognitively inspired, formal framework to realize cooperative joint actions and consensus in multi-agent systems.
translated by 谷歌翻译
可穿戴摄像机可以从用户的角度获取图像和视频。可以处理这些数据以了解人类的行为。尽管人类的行为分析已在第三人称视野中进行了彻底的研究,但仍在以自我为中心的环境中,尤其是在工业场景中进行了研究。为了鼓励在该领域的研究,我们介绍了Meccano,这是一个以自我为中心视频的多式模式数据集来研究类似工业的环境中的人类行为理解。多模式的特征是凝视信号,深度图和RGB视频同时使用自定义耳机获得。该数据集已在从第一人称视角的人类行为理解的背景下明确标记为基本任务,例如识别和预测人类对象的相互作用。使用MECCANO数据集,我们探索了五个不同的任务,包括1)动作识别,2)活动对象检测和识别,3)以自我为中心的人类对象互动检测,4)动作预期和5)下一步活动对象检测。我们提出了一个旨在研究人类行为的基准,该基准在被考虑的类似工业的情况下,表明所研究的任务和所考虑的方案对于最先进的算法具有挑战性。为了支持该领域的研究,我们在https://iplab.dmi.unict.it/meccano/上公开发布数据集。
translated by 谷歌翻译
在室外和室内环境中的精确定位是一个具有挑战性的问题,目前构成了几种实际应用的重要限制。超宽带(UWB)本地化技术代表了解决该问题的宝贵低成本解决方案。然而,特定无线电环境的非视线(NLOS)条件和复杂性很容易在范围测量中引入正偏见,从而导致高度不准确和不令人满意的位置估计。鉴于此,我们利用了深神网络优化技术的最新进步及其在超低功率微控制器上的实施,以引入有效的范围错误缓解解决方案,该解决方案可在NLOS或LOS条件下提供校正,并具有几兆瓦的功率。我们广泛的实验认可了我们的低成本和力量效率方法的优势和改进。
translated by 谷歌翻译
我们考虑一个用于边缘计算应用程序的智能传感器网络,该网络采样了感兴趣的信号,并将更新发送到基站进行远程全局监视。传感器配备了传感和计算,并且可以在传输前在板载上发送原始数据或处理它们。边缘的有限硬件资源产生基本的潜伏期 - 准确性权衡:原始测量值不准确,但及时,而计算延迟后准确的处理更新可用。同样,如果传感器在板载处理需要数据压缩,则无线通信引起的延迟可能会更高。因此,需要决定何时传感器应传输原始测量或依靠本地处理以最大程度地提高整体网络性能。为了解决这个传感设计问题,我们对一个嵌入计算和通信延迟的估计理论优化框架进行建模,并提出一种基于强化学习的方法,以在每个传感器上动态分配计算资源。我们提出的方法的有效性是通过数值模拟的验证,该案例研究是由无人机和自动驾驶车辆驱动的案例研究。
translated by 谷歌翻译
在本文中,我们考虑了一个智能传感器(代理)的无线网络,该网络可以监视动态过程,并将测量结果发送到执行全球监控和决策的基站。智能传感器配备了传感和计算,并且可以在传输前发送原始测量或对其进行处理。受限的代理资源提出了基本的潜伏 - 准确性权衡。一方面,原始测量值不准确,但生产速度很快。另一方面,对资源约束平台上的数据处理以不可忽略的计算延迟成本生成准确的测量。此外,如果也压缩了处理的数据,则无线通信引起的延迟可能更高。因此,确定网络中的传感器应在何时何地传输原始测量或利用耗时的本地处理是一项挑战。为了解决这个设计问题,我们提出了一种增强学习方法,以学习有效的政策,该政策会动态决定何时在每个传感器上处理测量。我们提出的方法的有效性通过数值模拟,并通过案例研究对智能感应进行了验证。
translated by 谷歌翻译
有效计划的能力对于生物体和人造系统都是至关重要的。在认知神经科学和人工智能(AI)中广泛研究了基于模型的计划和假期,但是从不同的角度来看,以及难以调和的考虑(生物现实主义与可伸缩性)的不同意见(生物现实主义与可伸缩性)。在这里,我们介绍了一种新颖的方法来计划大型POMDP(Active Tree search(ACT)),该方法结合了神经科学中领先的计划理论的规范性特征和生物学现实主义(主动推论)和树木搜索方法的可扩展性AI。这种统一对两种方法都是有益的。一方面,使用树搜索可以使生物学接地的第一原理,主动推断的方法可应用于大规模问题。另一方面,主动推理为探索 - 开发困境提供了一种原则性的解决方案,该解决方案通常在树搜索方法中以启发性解决。我们的模拟表明,ACT成功地浏览了对基于抽样的方法,需要自适应探索的问题以及大型POMDP问题“ RockSample”的二进制树,其中ACT近似于最新的POMDP解决方案。此外,我们说明了如何使用ACT来模拟人类和其他解决大型计划问题的人类和其他动物的神经生理反应(例如,在海马和前额叶皮层)。这些数值分析表明,主动树搜索是神经科学和AI计划理论的原则性实现,既具有生物现实主义和可扩展性。
translated by 谷歌翻译
在现代建筑基础设施中,由于低成本传感器的大数据可用性以及深度学习等先进的建模工具,因此促进自适应和无监督的数据驱动的健康监测系统的机会正在受欢迎。本文的主要目的是将深度神经网络与双向短期内存结合和涉及瞬时频率和光谱峰度的先进统计分析,以开发出来自声发射事件(裂缝)的拉伸,剪切和混合模式的准确分类工具。我们调查了有效的事件描述符,以捕获不同类型模式的独特特征。实验结果的测试证实,该方法在不同的破解事件中实现了有希望的分类,并可能影响结构健康监测(SHM)技术的未来设计。这种方法有效地对初始损害进行分类,以92%的精度进行分类,这是有利的计划维护。
translated by 谷歌翻译